AI资讯新闻榜单内容搜索-Reasoning

250多篇论文，上海AI Lab综述推理大模型高效思考

最近，像 OpenAI o1/o3、DeepSeek-R1 这样的大型推理模型（Large Reasoning Models，LRMs）通过加长「思考链」（Chain-of-Thought，CoT）在推理任务上表现惊艳。

来自主题: AI技术研报

8239 点击 2025-04-05 14:45

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement Learning）成为了大语言模型能力提升的新引擎。然而，针对大语言模型的大规模强化学习训练门槛一直很高：

来自主题: AI技术研报

10367 点击 2025-03-31 15:07

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

随着 DeepSeek-R1 的流行与 AI4Math 研究的深入，大模型在辅助形式化证明写作方面的需求日益增长。作为数学推理最直接的应用场景，形式化推理与验证（formal reasoning and verification），也获得持续关注。

来自主题: AI技术研报

5427 点击 2025-03-09 10:31

上海AI Lab最新推出Mixture-of-Memories：线性注意力也有稀疏记忆了

回顾 AGI 的爆发，从最初的 pre-training (model/data) scaling，到 post-training (SFT/RLHF) scaling，再到 reasoning (RL) scaling，找到正确的 scaling 维度始终是问题的本质。

来自主题: AI技术研报

5301 点击 2025-03-06 09:46

从 R1 到 Sonnet 3.7，Reasoning Model 首轮竞赛中有哪些关键信号？

DeepSeek R1 催化了 reasoning model 的竞争：在过去的一个月里，头部 AI labs 已经发布了三个 SOTA reasoning models：OpenAI 的 o3-mini 和deep research， xAI 的 Grok 3 和 Anthropic 的 Claude 3.7 Sonnet。

来自主题: AI技术研报

8201 点击 2025-03-05 09:39

DeepSeek R1也会大脑过载？过度思考后性能下降，少琢磨让计算成本直降43％

原来，大型推理模型（Large Reasoning Model，LRM）像人一样，在「用脑过度」也会崩溃，进而行动能力下降。

来自主题: AI技术研报

7522 点击 2025-03-02 14:04

受R1启发，微软亚洲发布Logic-RL，帮助LLM通过RL解决"骑士与骗子"逻辑谜题

本文深入解析一项开创性研究——"Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning"，该研究通过基于规则的强化学习技术显著提升了语言模型的推理能力。微软亚洲的研究团队受DeepSeek-R1成功经验的启发，利用结构化的逻辑谜题作为训练场，为模型创建了一个可以系统学习和改进推理技能的环境。

来自主题: AI技术研报

6856 点击 2025-02-26 09:56

联手OpenAI，吴恩达推出一门o1推理新课程，还免费

在刚刚过去的 2024 年，OpenAI 推出了 o 系列模型。相比于以往大型语言模型，o 系列模型使用更多的计算进行更深入的「思考」，能够回答更复杂、更细致的问题。

来自主题: AI资讯

8824 点击 2025-01-02 14:53

NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界？

该文章的第一作者陈麒光，目前就读于哈工大赛尔实验室。他的主要研究方向包括大模型思维链、跨语言大模型等。该研究主要提出了推理边界框架（Reasoning Boundary Framework, RBF），首次尝试量化并优化思维链推理能力。

来自主题: AI技术研报

4231 点击 2024-11-10 13:50

红杉年度文章解读：生成式AI进入第二阶段，应用层价值凸显以及商业模式将重塑

在红杉资本在最新发布的文章《Generative AI's Act O1 ：The Agentic Reasoning Era Begins》中，讨论了当下生成式AI正在从以训练时计算的快思考，向以推理时计算的慢思考发展。OpenAI 的新模型 o1便是重要的标志。慢思考的到来也将会带来新的机会，行业认知的重要性被高度重视起来，过去对于AI应用以及背后的商业理解也将被刷新。

来自主题: AI资讯

7664 点击 2024-10-12 15:03